[t:/]$ 지식_

하둡스트리밍 세컨키 소팅

2017/07/18

하둡스트리밍을 사용함에 있어서 1번째 컬럼인 키는 파티셔닝에 잘 사용되고, 소팅도 잘 된다.

두 번째 컬럼을 세컨키로 사용하여 이 컬럼까지 소팅하고 싶을 때가 있다. 예컨데 max 값을 구한다면 map에서 1,2 컬럼을 순서대로 넣고 2컬럼이 소팅되어 있다면 리듀서에서 마지막 값을 구하면 된다. 리듀서에서 첫번째 값을 구한다면 min이 된다.

세컨키 소팅을 하려면 다음과 같이 한다.

-D stream.num.map.output.key.fields=2 \
-D mapred.text.key.partitioner.options=-k1,1 \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

참조 : http://blog.naver.com/PostView.nhn?blogId=gyrbsdl18&logNo=186978247&categoryNo=3&parentCategoryNo=0&viewDate=¤tPage=1&postListTopCurrentPage=1





공유하기













[t:/] is not "technology - root". dawnsea, rss